Google における監視
Google の規模では、単一マシンの障害についての警告を受けるのは (ノイズが多すぎて) 受け入れられない Google の 10 年間の進化により、現状では時系列データが第一クラスになっている 時系列データからチャートやアラートを生成
変数収集とルール評価の原則はいずれのツールも同様であり、この章の説明を活用できる
Borgmon はシステム障害を検出するために、スクリプト実行ではなく共通のデータ公開形式に依存 (ホワイトボックス監視) 大量収集しやすくするため、メトリクス形式を標準化
内部状態を表出させる古い方法 (varz) では、HTTP リクエストで対象から全ての情報を取得できる Borgmon は事前に決められた間隔で対象の /varz エンドポイントをフェッチして値をメモリに保存する 対象を見つけるために、Borgmon インスタンスは対象のリストを保持する
各ターゲットの 「合成」 (synthetic) 変数も記録する
名前がホストとポートに解決された場合や対象が収集に応答した場合、などを識別する
これらの合成変数を使用すると、監視対象のタスクが使用できないかどうかを検出するためのルールを簡単に作成できる
SNMP は、最小限のトランスポート要件を持ち、他のほとんどのネットワークアプリケーションが失敗しても機能し続けるように設計されている
HTTP を介した対象のスクレイピングはこの設計原則とは異なるが、これが問題になることはめったにない
複数の対象に同じルールを適用できる